Workflow-GYM: Evaluación de agentes GUI en tareas profesionales a largo plazo
Workflow-GYM evalúa agentes de IA en tareas profesionales con GUI. Los mejores modelos apenas superan el 30% de éxito. Descubre los desafíos.
Workflow-GYM evalúa agentes de IA en tareas profesionales con GUI. Los mejores modelos apenas superan el 30% de éxito. Descubre los desafíos.